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, PACTl3 fr 

Aix^gal^e dej?"Ri:f±ndang and Anwondungabereiche . . _ 

Die vor l-i*egenda**Er findung erstneckt^sich^auf das* Gebiet von 
p rog r ammi e rba r en und irisbesondere wahrend des Betriebes 
umprogrammierbaren arithmetischen und/oder logischen 
Bausteinen (VPUs) n at^ielzahl von arithmetischen und/oder | 
logischen Einheiten, deren Verschaltung ebenfalls 
prograitunierbar und wahrend des Betriebes umprograinmierbar ist. 
Derartige logische Bausteine sind unter dem Oberbegriff FPGA 
von verschiedenen Firmen verfugbar. Weiterhin sind mehrere 
Patents veraf f entlicht, die spezielle arithmetische Bausteine 
mit aufeomatischer *Datensynchronisation und -vecbesserter 
arithmetischen Daitenverarbeitung of fenlegen. 
SMmt lichee besch^fcebene Bausteine besitzen eine zwei- bder 
mehrdimensi,pna*le**Anprdnung von logischen und /bder 

arithmetischen Eihheiten '(PAEs) , die tfber Bussysfceme J J 

miteinander verschaltbar sind. I 
Kenn^eie-hnend^f Gr die der Er f indung "entspre'chfernden Bausteine 
ist, da ft sie entweder die nachfolgend auf qelisteten Einheiten \ 
besitzen, Oder zur erf indunqsgema&en Anwendung diese Einheiten ! 
programmiert oder (auch extern) hin2uqefUqt warden; 1 

Konf iqurationsda ten , ! 

2. PAEs» j 

3. mind estens ein Interface (IOAG) zu einem Oder mehreren j 
-SpejjChem und/oder peripheren Gerfrten. I 

Aufgabesrder^Erfindung ist es, ein ?rogrammierverfahxen- zur i 
VerfOgung zu stellen, das es ermSglicht die beschriebenen 5 
Bausteine in gewOhnlichen Hochsprachen effizient zu 
programmieren und dabei die Vorteile der diirch die Vielzahl 
von Einheiten entstehende ParallelitSt der beschriebenen 
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Bausteine weitgehend automatisch, vollstandig und effizient zu 
nutzen. 



Stand dor Technik 

Bausteine der genannten Gattung werden zumeist unter 

Verwendung gewdhnlicher Datenf lussprachen programmiert . Dabei 

treten zwei grundlegende Probleme auf: 

1„ Die Programmierung in Datenf lussprachen ist fur 

Programmierer gewShnungsbedtfrf tig, tief sequentielle Aufgaben 

lassen sich nur sehr umstfcndlich beschreiben. ! 

2. Grofle Applikationen und sequentielle Beschreibungen lassen | 

sich mit den bestehenden Obersetzungsprogrammen (Synthese- ' 

Tools) nur bedingt auf die gewunschte Zieltechnologie abbilden ' 

tsynthetisieren) . j 

Fur gewbhnlich werden Applikationen in mehrere j 
Teilapplikationen partitioniert, die dann einzeln auf die i 
Zieltechnologie synthetisiert werden (Fig. 1). Die einzelnen j 
BinSrcodes werden dann auf jeweils einen Baustein geladen. | 
Wesentliche Voraussetzung der Erfindung ist das in DE 44 IS 
881 beschriebene Verfahren, das es ermoglicht, mehrere 
partitionierte Teilapplikationen innerhalb eines Bausteines zu 
nutzen, indem die zeitliche AbhMngigkeit analysiert wird und 
uber Steuersignale sequentiell die jeweils erforderlichen 
Teilapplikationen bei einer tfbergeordneten Ladeeinheit 
angefordert und von dieser daraufhin auf den Baustein geladen 
werden . 



Existierende Synthese-Tools sind nur bedingt in der Lage 
Progratttn-Schleifen auf Bausteine abzubilden (Fig. 2 0201) 
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- Dabei werden FOH-Schleifen (0202) a Is Primitiv-Schl'eif e hSufig 
VcnaGh«4dadut€h unterstatzt, . daii dde^Schle&f e volfepmmen auf die 
Ressourcen des Zielbausteines ausgewalzt werden. 



WHII*E-^Schlelfen (0203) -besitzen im Gegensatz zu FOR-Schleifen 



keinen konstanten Abbruchswert . vielmehr wird durch eine 

Bedingung evaluiert, wann der Schleifenabbruch stattfindet* 

Daher 1st gewShnlicherweise (wenn die Bedingung nicht konstant 

ist) zur Synthesezeit nicht bekannt, wann die Schleife ■ 

abbricht. Durch das dynamische Verhalten k6nnen Synthese-Tools 

diese Schleifen nicht fest auf Hardware abgebildet d. h. auf 

einen Zielbaustein ubertragen werden* I 

! 

; 

Rokursionen sind grundsatzlich nicht auf Hardware .abbildbar, I 
wenn die Rekursionstief e nicht zur Synthesezeit bekannt und 
damit konstant ist. Bei-der-Rekursion werden mit^jeder neuen ' 
Rekursion^iBbene^neue Ressourcen^ ai-iokiert . ^Das yttrde bedeuten, J 
daB *mit jeder Rekursionsebene neue Hardware zur VerfCigung j 
gestellt -werden mufi r was -aber^dynamisch nicht mSglich ist „ | 

. . I 

Selbst einfache Grundstrukturen sind von Synthesetools nur ! 
dann abbildbar, wenn der Zielbaustein ausreichend grofc ist, I 
d-h. r ausrei J 




Einfache zeitliche AbhSngigkeiten (0301) werden durch heutige 
Synthese-Tools nicht in mehrere Teilapplikationen 
partitioniert und sind deshalb nur als Ganzes auf einen 
2ielba-us%ein ilbertragbar . 

Bedingtee AusfUhrungen (0302) und schleifen Uber Bedingungen 
(0303) si*nd ^ebenfalls nur abbildbar, wenn ausreichende 
Ressourcen auf dem Zielbaustein existieren - 
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- Durch das in DE 44 16 881 beschriebene Verfahren ist e$ 
mttglich Bedingungen zur Laufzeit innerhalb der 
Hardwarestrukturen der genannten Bausteine zu erkennen und 
derart dynamisch darauf zu reagieren, daft die Funktion der 
Hardware entsprechend der eingetretenen Bedingung modifiziert 
wird, was im wesent lichen durch das Konf igurieren einer neuen 
Struktur geschieht» 

Ein wesentlicher Schritt in dem erf indungsgemSBen Verfahren 
ist die Partitionierung von Graphen (Applikationen) in 
2eitlich unabhangige Teilgraphen {Teilapplikationen) • 

i 

Der Begriff "zeitliche Unabhangigkeit" wird damit definiert, j 
dafi die Daten, die zwischen zwei Teilapplikationen Ubertragen 
werden durch einen Speicher, gleich welcher Ausgestaltung | 
(also auch mittels einfacher Register), entkoppelt werden. Die \ 
ist besonders an den Stellen eines Graphen znoglich, an denen ! 
eine klare Schnittstelle mit einer begrenzten und mdglichst I 
minimalen Menge von Signalen zwischen den beiden Teilgraphen I 
besteht. j 

Die zeitliche Unabhangigkeit kann in groften Graphen durch das ' 

gezielte Einfttgen von klar definierten und moglichste j 
einfachen Schnittstellen zum Speichern von Daten in einen 

Ewischenspeicher herbeigef uhrt werden (vgl. s tt in Fig. 4) . j 

Schleifen weisen grundsatzlich eine starke zeitliche j 

Unabhangigkeit auf, da sie lange Zeit iiber einer bestimmten j 
Menge von (zumeist) in der Schleife lokalen Variablen arbeiten 

und nur beim Schleifeneintritt und beim Verlassen der Schleife \ 
eine Obertragung der Operanden bzw. des Ergebnisses erfordern. 

Durch die zeitliche Unabhangigkeit wird erreicht, daft nach der 
vqllst&ndigen Ausfahrung einer Teilapplikation die 

4 / 33i* - j 
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- nachfolgende Teilapplikation geladen werden kann, ohne daft 
irgendwie Iche^wei t eren Abh*ng t igrkei*t*en ( oder? «E^nf^usse**auf treten • 
^B^iJnl^ Datoen in ^den^genannteri Speieher kann ein 

Signal (Trigger) ^ d-ie ubergeordneten 

Ladeeinheit zum Nachladen der nachsten Teilapplikation 
auffordert. Der Trigger kann bei der Verwendung von einfachen 
Registern als Speicher immer generiert werden, wenn das 
Register beschrieben wird. Bei der Verwendung von Speichern, 
i.b. von solchen die nach dem FIFO-Prinzip arbeiten, ist die 
Generierung des Triggers von mehreren Bedingungen abhangig, 
Folgende Bedingungen kSnnen beispielsweise einzeln oder 
kombiniert ein Trigger erzeugen: 

- Ergebnis^Speicher-^oll 
~ Oper^nden^spre^ 

- keineWneaen^ 

Beli^g^e^d^ung^ i^n^#li^^ generiert 
^durch sFlB. 

*^Ve^gle*%K<er 
* Z&hler 

Eine Teilapplikation wird im folgenden auch Modal genannt, urn 
die VerstSndlichkeit aus Sicht der klassischen Prograitxmierung 

folglnden 

auch Variablen genannt. Dabei unterscheiden sich diese 
Variablen in einem Punkt wesentlich von herkdmmlichen 
Variablen: Jeder Variable ist ein Statussignal (Ready; 
zugeordnet, das anzeigt, ob diese Variable einen gtiltigen Wert 
-besitzt^Wenn ein ^Signal einen guitigen -(be-rechneten) Wert 
-besitzt, 4st^das^Sta^ussignal -Ready; wenn das Signal keinen 
gaitigen Wert besitzt (Berechnung noch nicht abgeschlossen) , 
ist das Statussignal Not_Ready. Das Prinzip ist ausfiihrlich in 
der Patentanmeldung PACt 0 a pi96 51 075.9 beschrieben. | 

- 5 / 334* - I 
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Wave-Reconfiguration 

Durch eine geeignete Hardwarearchitektur (vgl» Fig. 10/11) ist 
es m5glich mehrere Module zu iiberlappen. D.h. mehrere Module 
sind in den PAEs vorkonf iguriert und es kann mit minimalem 
Zeitaufwand zwischen den Konf igurationen omgeschaltet werden r 
so daft aus einer Menge von roehreren Konf igurationen pro PAS 
itnmer qenau eine Konf iguration aktiviert ist* 

Wesentlich ist # daft dabei in einer Menge von PAEs in die ein 
Modul A und B vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleich2eitig 
mit einem Teil B konfiguriert sein kann. Dabei ist die 
Trennung der beiden Teile exakt durch die PAE gegeben, in der 
der Umschaltezustand zwischen A und B auftritt. Das bedeutet , 
daS , ausgehend von einem bestimmten Zeitpunkt bei alien PAEs 
bel denen vor diesem Zeitpunkt A zur Ausftihrung aktiviert war 
B aktiviert ist und bei alien anderen PAEs nach diesem 
Zeitpunkt immer noch auf A aktiviert ist. Mit steigender Zeit 
wird bei iraner mehr PAEs B aktiviert . 

Die Umschaltung erfolgt aufgrund von bestimmten Paten, 
Zustanden die sich aus der Berechnung der Paten ergeben oder 
aufgrund beliebiger anderer Ereignisse* 

Das bewirkt, daft direkt nach Verarbeitung eines Patenpaketes 
zu einer anderen Konf iguration umgeschaltet werden kann, 
Gleichzeitig/Alternativ kann ein Signal (RECONFIG-TRIGGSR) an 
den CM gesendet werden/ das das Vorladen von neuen 
Konf igurationen durch den CM bewirkt. Pas Vorladen kann dabei 
auf anderen von der aktuellen Datenverarbeitung abh&ngigen 
Oder unabhSngigen PAEs erfolgen. Durch eine Entkopplung der 
aktiven Konf iguration von den zur Urikonf iguration zur 
Verftigung atehenden Konf igurationen (vgl. Fig. 10/11) konnen 
auch gerade arbeitende (aktive) PAEs, insbesondere auch die 
PAE, die den RBCONFIG-TRIGGER erzeugte, mit neuen 
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Konfigurationen geladen werden. Dies erm5glicht eifte mit der 
Pat enverarrbe it unq,; ube,rlappende**Konf i gur a t ion . 



In^Efrqur 13 1st das Grundprinzip der Wave-Reconfiguration 
(WRC) darqestellt. Dabei wird von einer Reihe von PAEs (PAE1- 
9) ausqeganqe n, durch die die Paten pipelineShnlich laufen. Es 
wird ausdrttcklich darauf hinqewiesen, daB WRC nicht auf 
Pipelines beschrankt ist und die Veme t zunq und Gruppierunq 
der PAEs jede beliebige Forro annehmen kann. Die Darsteliung 
wurde jedoch qewShlt am ein einfaches Beispiel zuxn besseren 
Verstandnis zu zeigen. 

In Fig , 13a 13uft ein Patenpaket in die PAS1 . Die PAE besitzt 
4 m6qlie he . Konfigurationen (A, F, H, C) , die durch eine 
geeignete Hardwa re (vgl. Fig. 10/11). vahlbar sind- Die 
Kon figuration F ist in^inEAEl fur, das aktuelj.e Patenpaket 
aktiviert (schraffiert darqestellt) . 

Im nach sten Takt ia u f te-'dasrpatenpalk nach* PAE2 und ein neues 
Patenpa ket erscheint in PAE1 . Auch in PAE2 ist F aktiv. 
Zusammen mit dem Patenpaket erscheint ein Ereignis (fl) bei 
PASl. Das Erqnis entsteht durch Eintreffen eines beliebiaen 
Ereiqnisses von aussen bei der PAE (z.B. eines Statusflags 
oder Triggers) oder wird innerhalb der p&E durch di^e 
auggliitf ^^^^a!S5£riertT ? 

In Fig, 13c wird in PAE1 aufgrund des Ereignisses (tl) die 
Konfiguration H aktiviert, gleichzeitig erscheint ein neues 
Ereignis (t2), das im na chsten Takt (Fig, 13d) die Aktivieruna 
von Konfiguration A bewirkt. 

in Fig^ ^3e. trifft (T3) bei^PAEl, die das Oberschreiben von F 

mlt .G^beyirkt,, (Fig. 13f) . .Durch das Eintreffen von (t4) wird G 

aktiviert (Fig, 13q) . (t5) bewirkt das Laden von K anstelle 

von C (Fig 13h,i) und ct6) ladt und startet F anstelle von H 
(Fig. 13 j) 
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In Flg» 13 be wegt eine Welle von Umkonf igurationen auf grand 
yon Ereignissen durch eine Menge von PAEs, die 2- Oder 
mehrdimensional ausgestaltet sein kann. 
Es ist nicht zw ingend notwendig, dafi eine einroal ststtf indende 
Umkonf igurat ion durch die gesamten Flufl hinweg stattf indet . 
Beispielsweise k6nnte die Umkonf iguration mit der Aktivieruna 
von A aufgrund d es Ereianisses cf2) nur lokal in den PAEsl bis 
3 und PAE7 stattfinden, wahrend in alien anderen PABs 
weiterhin die Konficuration H aktiviert bleibt. 
Mit anderen Worten; 

a) Es ist mdglich, dafl ein Ereiqniss nur lokal auftritt und 
daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung 
auf manche PAEs; abhangi g vom ausgefUhrten Algorithmus. 

Bei den PAEs die nach (f2) weiterhin H aktiviert halten, kann 
selbstverstandlich das Eintreffen des Ereiqnisses C 



tT3) 



vollkommen and ere Auswirkungen haben, (I) vie etwa das 
Aktivieren von C statt dent Laden von Q w liL) andererseits 
k5nnte Ct3) auf diese PAEs auch gar keinen Einflufl haben. 



Pag Proxeosomodell 

Die in den folgenden Figuren gezeigten Graphen besitzen als 

Graphenknoten immcr £n Modul, wobei davon ausgegangen wir-d, 

dafl mehrere Module auf einen Zielbaustein abgebildet werden 

kSnnen, Das heifit, obwohl alle Module zeitlich voneinander 

unabhangig sind, wird nur bei aaeh-den Modulen eine 

Umkonf iguration durchgefuhrt,H»g ^ und/oder ein Datenspeicher 

eingeftigt/ die mit einem vertikalen Strich und At majrkiert 

sind. Dieser Punkt wird Umkonf igurationszeitpunkt genannt, 

- 8 / 33i* - 
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Per Urokonf iqurationszeitpunkt 1st abhangig von den bestimmten 
D^&rh^^^^^p^}^^nds!K^S^ sich> aus^der feraxbeltung der 
»be s t4?romjt|gn; Dafc en ergeben - 



Das bedeutet zusammenfassend: 

1, Grofle Module k6nnen an geeigneten Stellen partitioniert 
werden und in kleine zeitlich voneinander unabhangige Module 
zerlegt werden. 

2. Bei kleinen Modulen die geraeinsam auf einen Zielbaustein 
abgebildet werden konnen p wird auf die zeitliche 
UnabhSngigkeit verzichtet. Dadurch werden 

Konf igurationsschritte einge-spart und die^Datenverarbeitung 
beschleunigt . 

3* Die Umkonfigurat ions zeitpunkte werden entsprechend der 
vRessourcen der Ziel-bausteine pbsitioniert - Dadurch ist oine 
beliebige Skalierung der GraphenlMnge gegeben . 

4. Module konnen tiberlagert konfiguriert werden. 

5. Die^EJxnkonfiguration vom Modulen»»wird durch die »Paten selbst 
Oder Mem Er^ebnis der Verarbeitunq der Paten gesteuert. 



Copy And Compute Virtual Machine Model 1 

Die Grundlaqen der Datenverarbeitung mit VPU-Bausteinen sind 
entfspir fehgi^ der ybjMffergdfoe^ 

datenf luftorientiert . Urn sequentielle Programme mit 
ordentlicher Leistunq abzuarbeiten, ist es ledoch notwendig 
ein seguentielles Datenverarbeitunqsmodell zur Verftigung zu 
haben> Dabei sind pffcmals die Sequencer, in^den- einzelnen PASs 
nicht ausreichend. 

Pie Axchitektur yon yRUs^egm^glieht ^4edoch^rund3at2lich den 
Aufbau von beliebiq komplexen Sequenzern aus einzelnen PAEs» 
Das bedeuted: 

1 . Es konnen komplexe Sequenzer konfiquriert werden, die exakt 
den Anforderungen des Alqorithmus entsprechen. 

- 9 / 33** - 
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2 > Per Datenf luft kannjwie bereits ausfuhrlich diskutiert r 
exakt die Rechenschrltte des Alqorithmus reprasentieren. 

Dadurch kann eine Virtuelle Maschine auf VPUs implement iert 
werden # die insbesondere auch den sequentiellen Anforderunqen 
eines Alqorithmus gntspricht* 

Hauptvorteil der VPU-Architektur ist, daft ein Alqorithmus 
durch einen Compiler so zerteilt werden kann, dafi die 
Datenf luflteile extrahiert werden durch einen "optimalen" 
Datenfluft repr&sentiert werden, indem ein anqepaflter Datenfluft 
konfiquriert wird UND die secnientiellen Teile des Algorithmus 
durch einen "optimalen" Sequenzer reprSsentiert werden, indem 
ein anqepaftter Sequenzer konfiquriert wird- Dabei kdnnen 
qleichzeitiq mehrere Sequenter und Datenflusse auf einer VPU 
unterqebracht werden, ausschlieftlich abhanqig von den zur 
Verfiiqunq stehenden Ressourcen. 

Durch die qrofte Anzahl an PAEs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen Zustande. Bei Taskvgchseln oder 
Unterprogramm-Auf rufen (Interrupts) mussen diese 2ust£nde 
gesichert werden (vgl- PUSH/POP bei Standardprozessoren) . Dies 
ist iedoch aufgrund der Menqe an Zustanden nicht sinnvoll 
mSqlich. 

Uni die Zustande auf eine handhabbare Menqe zu reduzieren muft 
zwischen zwei Arteg von Zustanden unterschieden werden: 
1. Zustandsinformationen des Maschinenmodells (MACHINE -STATE) . 
Diese Zustandsinformationen sind nur innerhalb der 
Abarbeitunq eines bestimmten Modules qUltiq und werden auch 
nur lokal in den Sequenzern und Datenf lufteinheiten dieses 
bestimmten Modules verwendet. D-h. diese MACHINE- STATES 
reprasentieren die Zustande, die in Prozessoren nach dem 

- 10 / - • 
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Stand der Technik verdeckt innerhalb der Hardwar e ablaufen, 
Mr XTt\&Mfcz 1 t -4:niyd4sni|gB:e^jehlen und^den ^Verarfreitungsschritten 
, siypd^und nach . JfrbjL.au f.. eines ^Befehles ke4ne^ weitere 
IT^f o^gmalf i^orf^f U r nachfolqende Befehle belnhalten. Derartige 
ZustSnde brauchen nicht gesichert zu werden. Bedingung 
dafiir ist, da& interrupts nur nach kompletter AusfQhrung 
aller gerade aktiven Module durchgefahrt werden, Stehen 
Interrupts zur AusfQhrung an, werden keine neuen Module 
geladen, gondern nur noch aktive abqearbeitet ; ebenfalls 
werden den aktiven Modulen, soweit es der Alqorithmus 
zuiaat keine neuen Operanden mehr zugeftihrt. Dadurch wird 
ein Modul zu elner atomaren nxcht unterbrechbaren Einheit. 
vergXeichbar mit einer> Instruktion . eines Processors nach 
dem. Stand ^der, Techni k . 
2 . ZustSnde *derr Dafrten^erarbeitung ( DATA - STAT E ) > v Die 
da t enbe zogen e n Zustande^mttssen beim^&uf treten^eines 
Interrupts entsprechend den Prozessormodellen nach deiu 
Stands der Te chnik gesichert ,und in den Speicher; qeschrieben 

werden . Das ^s^nd^bestiimnte nbtwendige Register und Flags 

oder - entsprechend der Begriffe der VPEJ-Technologie - 
Trigger. 



Bel^denj^^ ie nac h Algorithmus 

weiter vereinfacht werd en> Zwei grundlegende Strategien werden 
im Folgenden n&hers eriautert; 
1- Mitlaufen der Zustandsinf ormat ion 

Dabei werden a 1 1 e re le van ten und zu einem spatenen Zeitpunkt 
ben3td«,q,t en. • Zus taiadAl n f o rma t ionen von einem Modul zum nachsten 
Ubertjca gen, w4e^ e^ln Pipelines oftmals s-tandardmgfllg 
implement iert ist- Die Zustandsinf ormat ionen werden dann 
zusamme n mit den Paten implizit in einem Speicher abgelegt, 
sodafl d ie ZustSnde bei einem Abruf der Paten zugleich zur 
Verfugung stehen. Ein explizites Handhaben der 
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Zustandsinformationen i.b. mittels PUSH und POP entfallt 
dadurch, wag je nach Algorithmus einerseits zu einer 
wesentlichen Beschleunigunq der Abarbeitung und andererseits 
zu einer vereinfachten Proqranunierung fiihrt. 
Die Zustandsinformaton kann wahlweise entweder rttit dent 
jeweiliqen Patenpaket qespeichert werden, oder nur im Falle 
eines Interrupts qesichert und besonders qekennzeichnet 
werden. 

2. Sichern der Reentry Adresse 

Bei der Verarbeitunq von groflen Datenmengea, die in einem 
Speicher abqeleqt sind, 5te^ kann es sinnvoll sein^die Adresse 
mindestens einer der Operanden des gerade verarbeiteten 
Patenpaketes mit dem Patenpaket zusammen durch die PAEs zu 
leiten. Pabei wird die Adresse nicht modif iziert 1 sondern steht 
beim Schreiben des Datenpaketes in ein^RAM als Pointer auf den 
let z ten verarbeiteten Operanden zur Verfttqunq. 
Dieser Pointer kann wahlweise entweder mit dem jeweiliqen 
Patenpaket gespeichert werden, oder nur im Faile eines 
Interrupts qesichert und besonders qekennzeichnet werden. 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse (oder eine Gruppe von Adressen) berechnet werden 
konnen ist es sinnvoll nur eine Pidxesse Coder eine Gruppe von 
Adressen) zu sichern - 

"ULIW"-"UCISC ,> --Modell 

FOr das Verstandnis dieses (einem Prozessor nach dem Stand der 

Technik sehr ahlichen) Modells ist eine Erweiterung der 

Betrachtunosweise der Architektur von VPUs erf orderlich. Dabej 

dient das Virtual-Machine Modell als Grundlaqe, 

Das Array aus PAEs (PA) wird als in ihrer Architektur 

konf igurierbare Recheneinheit betrachtet. Per/die CM (5) 
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- stejllen eine Ladeeinheit (LOAD-UNIT) fur Opcodes ,„dar . Die 

I0AG ( sjjgtibgjgnehn^ 4das* Bus>inter?feace.^^ z . 

D&es^An^dnunq ermSglicht zvei qr undsa t z 1 i^che 
Funktionsweisen r die iro Betrieb qemischt verwendbar sind: 

1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
Ausfiihrunq eines komplexen Befehls oder Befehlsfolqe 
konf iquriert und danach werden die auf diesen Befehl bezoqenen 
Paten (das kann auch ein einziqes Datenwort sein) verarbeitet. 
Danach wird diese Gruppe umkonf iquriert, zur Abarbeitunq des 
nachsfeen -vBef ehles . , Dab e i *kann^ s i ch. ^d i e G z& fl un d v Ano r dn u n q der 
Gruppe andern. -Gemaft den bereits besprochenen 
Partiti<:onierunqstechnoloqlen«*obIieqt ea ctem Compiler, 
maqirfcftst optirnale Gruppen zu^schaf f en - ^Durch den CM werden 
Gruppen a»ls ^Beffehle auf den Baustein^'qeladeli'' ^dadur^ch ist 
des Verfaton mit dem be kann ten VLIW ver#eiGhto>ar^nur,.dafi 
erheblich mehr Rechenwerke .ircerwaltet werden UND^dde 
VernetzuftTqsstruktur zvischen den Rechenverken ebenfalls voir 
Instruktionswort abqedeckt werden kann (Ultra Large 
Instruction word ° "ULrW") . Ein Instruktlonswort entspricht 
dabei einem Module Mehrere Module konnen qleichzeitiq 
v&rea£3feg^^ dl #• ^fen%##^q^fe#t del: Pat erf 

zul&flt und qenQqend Ressourcen auf dem Baustein frei sind> Wie 
bei VLIW-Befehlen wird far gewflhnlich nach Ausfuhren des 
Instruktionswortes sofort das nachste Instruktionswort 
geladen. Zur zeitlichen Optimierung ist es dabei mQglich das 
nachste^I?ns.t ruktldnswor t bereits. wahrend der Aujsftthrung 
vorzuladen Xxgl-* Fig. 1J?),« Bel* metixeren m6qlichen nachsten 
Instruktionsw5rten konnen mehrere voxgeladen werden und vor 
der Ausftthrung wird z.B. durch ein Triqqersiqnal das korrekte 
Instruktionswort ausgewahlt. BEISPIEL MIT IF- -ELSE ZEICHNEN!\ 
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2. Bine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
AusfUhrung einer haufig qebrauchten Befehlsfolge konf iguriert , 
Die Paten, das kann auch hier ein einzelnes Datenwort sein, 
werden bei Bedarf der Gruppe zuqefohrt und von der Gruppe 
empfanqen. Diese Gruppe bleibt Qber eine Vielzahl von Takten 
ohne Umkonf iquration bestehen. Vergleichbar ist diese 
Anordnung mit einem speziellen Rechenwerk in einem Prozessor 
nach dem Stand der Technik (z.B- MMX) , das fur Spezialauf qaben 
vorqesehen ist und nur bei Bedarf verwendet wird. Durch diesen 
Ansatz sind Spezialbef ehle entsprechend des Clsc-Prinzipes 
qenerierbar, mit dem Vorteil, daft diese Befehle 
anwendungsspezif isch geschaffen werden k6nnen (Ultra-CISC - 

"ucisc") . 



Erweiterunq des RDY/ACK-Protokolls (vgl. PACE62) 
In PflCT02 1st ein RPY/ACK-Standardprotokoll beschrieben, das 
die wesentllchen Anforderungen gemaft den Synchronisationen von 
DE 44 16 881 in Hinblick auf eine typische 

Datenf luftapplikation beschreibt* Nachteil des Protokolles ist, 
daft lediqlich Paten qesendet und der Empfanq bestatigt werden 
kann. Per umpekehrte Fall, indein Paten anqefordert werden und 
das Versenden bestatigt wird (im Folqenden REQ/ACK genannt, 
ist 2war elektrisch mit demselben Zweidrahtprotokoll losbar, 
jedoch semantisch nicht erfaflt. Pas gilt insbesondere, wenn 
REQ/ACK und RPY/ACK gemischt betrieben werden. 

Paher wird die klare Unterscheidunqr der Protokolle eingefuhrt; 
RPY; Paten lieqen beim Versender fur den Empf anger bereit 
RSQ; Paten werden vom Empf anger beim Versender angefordert 
ACK: Allqemeine Bestatigunq fur erfolqten Ernfang oder Versand 
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(Prinzipieli kSnnten au^h zwische n ack far ein RDY und elnem 
ACK fur ein REQ unterschieden werd en, iedoch ist in den 
Protokollen die Semantik des ACK * fQr gewtthnlich implizit) = 



In- V'P0sjrkftni?ie^^ e*nerMOder 

^ ~" ^ j&ird 



im fetoejiden ein Speichermodell bea c hrieben^das ^leichzeitig 
ein Interface zu externer Peripherie und/ oder externem 
Speicher darstellt: 

Bin VPU-interner Speicher mit PAE-ahnlichen Busf unktionen kann 
verschiedene Speichermodi darstellen; 
1 . Standardspeicher 
2» Lookup-Tabelle 

3 . FIFO 

4, LIFQ 

Dem Spefrchjer*riStr^ zuqgc?fcdnet, -das 

Spe i che gb^re^eheCiilahl'vrei s eMiTcff t ^£dex^ b l^Pfelcfe^ise ^ schvre:ibt , Oder 
liest, 

Dadurch ^gfrSfren jsi clil f olggnde* Nt&zuaq£m&q^ : 

1, , Entkoppa,u$ig i^on^E>atenstrOmen (FIFO) 

2, Schneller Zuqriff auf selektierte Speicherbereiche eines 
externen Speichers, was eine Cacheahnliche Funktion 
darstellt (Standardspeicher, Lookup-Tabelle) 

3 At,aisJc. i: ^ -a - 

Dabei kann das Interface benutzt werden, es is t Iedoch nicht 
zwinqend notwendiq. wenn die Paten z»B. ausschlie&lic h lokal 
in der VPU verwendet werden und der Speicherplat z eines 
internen Speichers ausreicht. 
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Stack Mode 11 

Durch Verwenduna des REQ/ACK-Protokolls und der internen 
Soeicher im LIFO-Modua kann ein einfacher Stack-Prozessor 
a-ufqebaut warden. Dabei werden temporSre Paten von den PAEs 
auf den Stack geschrieben und bei Bedarf von dem St ack 
qeladen. Pie hierfur notwendigen Co mpilertechnoloqien sind 
hinreichend bekannt. 

Purch die variierbare Stacktiefe, die dur ch einen 
Patenaustausch des internen Soeicher mit einem externen 
Soeicher erreicht wird, kann der Stack beliebiq qroft werden, 




Akkumulator Modell 

Jede PAE kann eine Recheneinheit nach dem Akkumu latorprinzip 
darstellen- Wie aus P*&£&2 bekannt isti es mSqlichidie 
Ausqanqsreqister auf den Einganq der PAE rQckzukoppeln. "fry 
Padurch entsteht ein Akkumulator nach dem Stand der Technik* 
In Verbindung mit dem Sequenzer nach Fig, 11 lassen sich 
einfache Akkumulator-Prozessoren aufbauen. 



Register Modell 

Durch Verwendunq des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher-Modus kann ein einfacher 
Register-Prozessor aufqebaut werden, Pabei werden die 
Reqisteradressen von einer Gruppe von PAEs qeneriert, wahrend 
eine andere Gruppe von PAEs die Verarbeitung der Paten 
tibernimmt- 



Pie verwendeten Maschinenmodell£,k5nnen innerhalb einer VPU 
beliebig kombiniert werden, Auch innerhalb eines Alqorithmus 
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kann^e nach dem, welches Modell^timal 1st, zwischen den 
Model len gewechselt werden. 

Wird einem Reqister-Prozessor ein wei terer Speicher zuqefugt, 
von dem die Operanden gelesen werden und in de n die Er qebnisse 

wegden^Oatei^kft^ 

werden. ttsOmmr&Le ein^Went 6pe>ga®d en Und das^Srgebnis 
qefey ennt^ biateande 1 1 wind. 

Dieae Speicher arbeiten dann quasi als Load/Store-Ei nheit und 
stellen eine Art Cache fur den externen Speich er dar> Die 
Adressen werden durch von der Datenverarbeitunq separierte 
PAEs berechnet. 



Pointer Reordering 

Hochspraofae n wig G/C++ Weaswend^ die sehr 

schlecht^durch Pipelines- qehandhabt wferden.,k6nnen.> Wenn ein 
Poiater^eyst' dixekt ~vo r^dem Verwenderl^der Datensteulcturen auf 
die er zejLgt, berechnet^wjggd, kann hajufiq^die. Pipeline nlcht 
schnell„genuq gefflllt werden und* die yerarbeitung wird 
speziell in VPUs ,inef f izient . 

Sicherlich ist es sinnvollj bei der Proqrammierunq von VPUs 
ia5qlichst keine Pointer zu verwenden, jedoch ist das oftmals 
nicht moqlich, 

LSsunq 'ist, die Pointerstrukturen durch den Compiler so 
umZiUSPi^ laiiqe vor 

deren Verwendung berechnet werden. Gleichzeitiq sollte es 
mflqlichst weniq direkte Abhanqiqkeiten zwischen einem Pointer 
und den Daten^auf die er zeigtj geben. 
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Fxqtucen 

In Fig. 4a sind einige grundlegenden Eigenschaf ten des 
erfindungsgemaflen verfahrens dargestellt: 

Die Module des Types A sind zu einer Gruppe zusanunengefaBt und 
besitzen am Ende einen bedingten Sprung, entweder nach 81 Oder 
B2. An dieser Position (0401) 1st ein Umkonf igurat ionspunkt 
eingefiigt, da es sinnvoll ist die Zweige des bedingten 
Sprunges als jeweils eine Gruppe zu betrachten (Pall 1) . 
warden dagegen beide Zweige von B (Bl und B2) zusatzlich 
zusammen mit A auf den Zielbaustein passen (Fall 2), ware es 
sinnvoll, nur einen Umkonf igurationspunkt bei 0402 einzufvigen, 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkeit erhoht. Beide Zweige (Bl 
und B2) springen bei 0402 nach C. 

Die Konf igurat ion der 2ellen auf dem Zielbaustein ist in Fig. 
4b schematisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine Konf iguration dar. 
Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine 
Umkonf igurat ion an. S„ ist eine datenspeichernde Zelle, von 
beliebiger Ausgestaltung (Register, Speicher, etc.). Dabei ist 
S B I ein Speicher, der Oaten entgegennimmt und S n O ein Speicher^ 
der Daten ausgibt. Der Speicher S„ ist fur gleiche n jeweils 
derselbe, I und 0 kennzeichnen die Datentransferrichtung. 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind 
dargestellt. 

Das. Mode 11 in Fig. 4 entspricht einem Datenf lufimodell, jedoch 
mit der wesentliehen Erweiterung des Umkonf igurationspunkts 
und der damit erreichbaren Partitionierung des Graphen, wobei 
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die zwischen den Partitionen iibertragenen Daten 
zwischengespeichert werden. 

im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge 
und -Konstellation (0501) selektiv ein Graph B n aus einer Menge 
von Graphen B aufgerufen. Nach der Ausfiihrung von B gelangen 
die Daten-nach 0501 zurtlck. 

Wird -in -0501 ein<-ausreiehendt*g*ofler sequencer (A) 
impleroenteiert, istmit dem Modell ein den typisehen 
Prozessoren sehr ahnliches Prinzip implementierbar . Dabei 
gelangen 

1. Daten in den Sequenzer A, die dieser als Befehle dekodiert 
und entsprechend dem "von Neumann«-Prinzip darauf reagiert; 

2. Oaten in den Sequenzer A, die als Daten betrachtet werden 
und an ein fest konf iguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph- B stellt sedektierbar ein-»besonderes Rechenwerke 
und/oders-besondere Opcodes fur bestimmte Funktionen zur 
Verfiigung und wird alternativr.zur Beschleunigung von C 
verwendet. Beispielsweise- kann 81 ein optimierter Algdrithmus 
zu Berechnung von Matrixraultiplikatiohen sein,- wahrend B2 
einen FIR-Filter und B3 eine Mustererkennung darstellt- 
Entsprechend eines Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. entsprechende Graph B aufgerufen. 

Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbolisiert wird. 

Wahrend in den UxnJconf iguration3punkten von Fig. 4 vorzugsweise 
grSBer'e Speicher zum Zwischenspeichern der Daten eingefugt 
werden, ^ist eine einfache Synchronisation- der Daten in den 
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Umkonfigurationspunkten von Fig. 5 ausreichend, da der 
Datenstrom vorzugsweise als ganzer durch den Graphen B lauft 
und der Graph B nicht weiter partitioniert ist; dadurch ist 
das Zwischenspeichern der Daten tiberf ltissig- 

In Fig. 6a sind verschiedene Schleifen dargestellt. Schleifen 
kdnnen grundsatzlich auf drei Arten behandelt werden: 

1. Hardware-Ansatz: Schleifen werden vollstandig ausgewalzt 
auf die Zielhardware abgebildet (0601a/b) • Wie bereits 
erl^utert ist dies nur bei wenigen Schleif enarten m6glich. 

2. Datenf luii-Ansatz: Innerhalb des Datenflufces werden 
Schleifen ttber mehrere Zellen hinweg aufgebaut (0602a/b) . Das 
Ende der Schleif e wird auf den Schleifenanfang ruckgekoppelt . 

3. Sequenzer-Ansatz: Ein Sequenzer mit minimalem Befehlssatz 
fUhrt die Schleife aus (0603a/b) . Dabei sind die Zellen der 
Zielbausteine so ausgestaltet , dafl sie den entsprechenden 
Sequenzer beeinhalten (vgl. Fig, lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausftthrung ggf- optimiert werden: 

1. Unter Verwendung von Opt imierungsmet hoden nach dem Stand der 
Technik laBt sich hSufig der Schleif enrumpf , also der 
wiederholt auszuf tthrende Teil, dadurch optimieren, dafi 
bestiirante Operationen aus der Schleife entfernt werden und vor 
oder hinter die Schleife gestellt werden (0604a/b) . Dadurch 
wird die Menge der zu sequencenden Befehle erheblich 
reduziert. Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfuhrung der Schleife durchlaufen. 

2. Eine veitere Optimierungsm6glichkeit ist das Teilen von 
Schleifen in mehrere kleinere oder kurzere Schleifen. Dabei 
findet die Teilung derart statt, da& mehrere parallele oder 
mehrere sequent ielle (0605a/b) Schleifen entscehen. 
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Fig 7 verdeutlicht die Implement ierung einer Recursion. Dabe! 
werden dieselben Ressourcen (0701) in Form von Zellen fOr 3 ede 
Rekursionsebene (1-3) verwendet. Die Ergebnisse einer 3 eden 
Rekursionsebene (1-3) werden beim Aufbau (0711*+) in einen 
nach dem Stack-Prinzip aufgebauten Speicher (0702) 
geschrieben , G%e^h*elt*<r mit -dem*Abbau (TO2 : ) -der Ebenen 
wird der Stack abgebaut . 

in Fia. 14 wir das Virtual^Machine^Moden darqestellt. Aus 
*inem externen Sneicher w -rH»n Daten (1401) und zu den Daten 
qehorende Zustande (1402) i n eine VPU (140 3) qelesen. 
1401/1402 werden iiber eine von der , VPU qener ie rte Adresse 1404 
selektiert. Innerhalb der VPU sind PAEs zu unterschiedlichen 
cruooen zusammenaef aflt (1405, 1406, 1407 ). J ede Gruppe besitzt 
einen datenverarbeitenden Teil ( 1408) , der lokale impi^zite 
zugtan de (1409) besitzt. die k einen Einflufl auf die 
, umlieqenden Gruppen besitzt. Daher werden dessen ^Zustande 
nicht auBerhalb der Gruppe weit er qeleitet ■ gjc_Jcann jedoch von 
den externen. 2ustSnden abhanqio seln. Ein weiterer Teil (1410) 
aeneriert Zustande, die Einfl "R guf die* umlieqenden Gruppen 
haben . 

Die Daten und. Zustande der Ergebnis s e werden in einen weiteren 
Soelcher (1411, 1412) atoqeleot. Glelchz eitiq kann die Adresse 
von Operanden (14004) als Pointer ge speichert (1413) werden. 
2ur zeitliche Synchronisation kann 1404 Uber Register (1414) 
qefuhrt werden. 

In Fig. 14 1st zur Verdeutlichung ein ein f aches Modell 
darqestellt. Die vernetzung und Grup pierung kann wesentlich 
komplexer sein als in diesem Modell. Eb enfalls konnen 2ustande 
und. Daten auch an weitere Module al s den Nachfolgenden 
ubertraaen werden. Es ist moqlich, daB Daten ah Jt andere Module 
tlbertragen werden als die Zustande. Sowohl Paten als auch 
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Enstande eines bestitnmten Moduls kflnn en von mehreren 
unterschiedlichen Modulen empf anoen werden. Innerhalb einer 
Gruppe kann 1408. 1409 und 1410 v or*anden se3n f Abhanqiq vom 
Algorithmic kttnnen aueh ei n zelne Teile fe hlen (z.B. 1410 und 
1409 vorhanden, 1410 jedoch nicht) ■_ 

In Fiqur 15 ist darqestellt wie aus elnem Verarbeitunqsgraphen 
Teilapplikationen extrahier t werden. Dabei wird der Graph so 
zerleat, daB lange Graphen sinnvoll zerteilt - werden und in 
Teilapplikationen (A, B) abqebild et werden. H HA NOCH LANGER 
MACHEN It!) Nach Spriinqen werden neue Tei lgraphen qebildet 
(C.K) wobei far jeden Sprun g ein qetrennter Te ilqraph qebildet 

w ird. j'PACTJ* 
Jeder Teilqraph ist in dem ULIW-Modell von der CM (vql-7 )g HQ \fl U . 
-g^j^T^itrennt ladbar- Wesentligli ist f ^da& Teilgraphen durch 
die Mechanismen in^ftllSI 3 k^nnen. Da zu qehort 
iasbesondere das intelligente Vorladen, Laden und LQ schen der 
Teilapplikationen . 

Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW- 
Modell, indem es 

1, Das Routing der Paten mit beinhaltet 
2- Groflere Instruktionsw5rter bildet. 

Sbenfalls Icann das beschriebene Verfahren der Partitionierung 
von Compilern filr heutiqe Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso einqesetzt werden » Wird dann eine 
Einheit (CT) nach PACT10 zur Steuerunq des Bef ehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleuniqt 
werden . 

Dazu werden "norma le" Programme entsprechend in 
Teilapplikationen partitioniert- GemaQ PACT10 werden Verweiae 
auf maqliche nachfolqende Teilappiikationen einqeftihrt (1501, 
1502), Dadurch kann eine CT die Teilapplikationen beireits in 
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den Cache vorladen bevor sie benotigt werden,Bei sprttn q en wi rd 
nur die anaesprunqen Teilapplikation ausgefphrt, die andere( n) 
verden sparer durch neue Teilapplikationen Uber schrieben, 
Neben dem intelliqenten Vor laden hat: das Verfahren den 
weiteren Vorteil, daft die GroBe der Teilappl ikationen beim 

Zuqrja^jjtfUdie. Spe^hervon der CT« ausqef Uhrt^wexden, was den 
ggel^tg^j^^lfgja^jg^ -erWeblich ^bescfrleunigt - 

Pigur 16 zeigt den Aufbau eines Stack-Prozessors, Durch das 
PAE-Array (1601) verden Protokolle generiert urn auf einen als 
LIFQ konfigurierten Speicher (1602) zu schreiben Oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben und 
REQ/ACK-Protokoll zum Lesen verwendet* Die Vernetzung und 
Betriebsmodi werden von der CT (1603) konf iguriert , 1602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslaqern. 




Sine Raihe der PAEs* sollen irir diesem Beispiel^als Register- 
Prozessor arbeiten (Rigur 17), Jede PAS besteht%a>us fgPknem 
Rechenwerk (1701) und einem Akkumulator, (1702):? auf dan das 
Erqebnis. von JL701 rttekge k oppelt (T703) ist- Damit stellt in 
diesem Be4 spiel: jede PAE einen Akkumulator-Prozessor dar. 
Sine PAE (1705) liest und schreibt die Paten in den als 
Standardspeicher konf iqurierten RAM (1704), Eine weitere PAE 
(1706) generiert die Reqisteradressen. 

Of tmais ^*fes*fc es s^ nnvoM eine qe t^eff&fe PAE ^ZAM^&&&ifc' : &(S& Paten 
— - — — — — — frrrrar r — a — ~ 



zu vervenden. Dann wQrdgPYTCfe nur schreiben und die PAE 1707 
lesen- Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generieren der Leseadressen einzufiihren. 
Es ist nicht ^zwinqend notwendig^getrennte PAEs zum. Generieren 
der Adressen zu verwendet - O&tmals, ,sind .die Register impllzit 
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^nci konnen d^nn a^Konat^rpn jconf iaori *rt we^J^den 
datenverarbeitenden PAEs ? esendet werden, 

Die Verwenduna von Akkumulator-Pr ozessoren fftr einen Register- 
Prozessor ist beispiels ^f t ■ Ebenso k6nnen z'um Aufbau von 
Reoisterprozessoren PA T * ohne Akkurmilator vervendet werden. 
Die in Fiqur 17 gezeiqt* Arctn^ektu r kann zur Ansteuerunq von 
Registern als auch zam Anste u ern einer Load/Store-Elnheit 
dienen, 

Sei der Verwenduna als Load/St o re-Einheit ist es fast zwingend 
notwendiq, einen externen RAM ( 1709) nachzuschalten, sodafl 1704 
nur einen temporaren Ausschnitt aus 17 Q9- quasi als Cache, 
darstellt- 

Auch bei der Verwendunq von 1704 als Register-Bank ist eg 
teilweise sinnvoll einen externen Sp eicher nachzuschalten, 
Dadurch kSnnen PUSH/POP Operationen nac h dem Stand der Technik 
durchqefuhrt werden, die den Reqiste rinhalt in einen Speicher 
schreiben oder aus diesem Lesen. 

In Fiqur 18 ist als Beispiel eine komplexe Mas chine abqebildet 
bei der das PAE-Array (1801) einerseits einen Load/Store- 
Einheit (1802) mit nachqeschaltetem RAM (1803) a nsteuert und 
qleichzextiq eine Register-Bank (1804) mit nachqeschaltetem 
RAM (1805) aufvreist. 1802 und 1804 konnen jeweils von einer 
PAE oder einer beliebigen Gruppe von PAEs anqesteuert werden- 
Die Einheit wird gemaB dem VPU-Prinzip von einer CT (1806) 
qesteuert „ 

Wichtig ist, dafl zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerunq kein 
wesentlicher Unterschied besteht. 

In Fiqur 19 ist ein Beispiel fur das Umsortieren von Graphen 
qezeigt , 
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Bin Modul kann beispielsweise f olgendermaAen deklariert 
werden: 

module example 1 

input (varl, var2 : tyi; var3 : ty 2 ) . 

output - (osesl, ^es2 : tyj) - 

begin 

register <regnaroel> (resl) . 
register <regname2> (res2) - 
terminatee (resl 6 res2; 1). 
end. 

module Jcennzeichnet den Beginn eines Modules, 
inpnt/oiitput definiert die EirWAusgangsvariablen mit den 
Typen ty„- 

begxn - • icendi mar k i e r enAden Rumpf^des Modules, 
register ^<regn£mel^ daS^Ergfetonis^ Output , 

wobei desTLErgebx5is. irt dem ddtfch? <*egnatoe i7>2>rspez i#i zder ten 
Registeri^w^scl^rfga^^ wittd A^«i^l/2>.^t'H«dabBi ' eine 

g 1 oba 1 e ^Rfe f e*re v n z**au £* eiii^'best 4BmtoaF*Ri&g6&tex . 

Als weitere Obergabemodi an den Output stehen beispielsweise 
folgende Speicherarten 2ur Verfiigung: 

fifo <fifoname>, wobei die Daten an einen nach dem FIFO- 

dabei eine globale Referenz auf einen bestiromten, im FIFO- 
Modus arbeitenden Speicher. terminates wird dabei um den 
Parameter bzw. das Signal "fifofull" erweitert, der/das 
anzeigt , -dafl *der ^Speieher voll ist- 

- 25 / 33*8- - 
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stack <stackname>, wobei die Daten an einen nach dem Stack- 
Prinzip arbeitenden Speicher iibergeben werden- <stackname> ist 
dabei eine globale Referenz auf einen bestimmten, ira Stack- 
Modus arbeitenden Speicher. 



teminateg unterscheidet die Programmierung entsprechend des 
erfindungsgemafien verfahrens von der herkammlichen 
sequentiellen Programmierung. Der Befehl definiert das 
Abbruchkriterium des Modules. Die Ergebnisvariablen resl und 
res2 werden von terminates nicht mit ihrera tatsachlichen Wert 
evaluiert, statt dessen wird nur die GOltigkeit der Variablen 
(also deren Statussignal ) gepriif t . Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkniipft, z-B. 
durch eine UND-, ODER- oder XOR-Operation. Sind beide 
Variablen gultig, terminiert das Modul mit dem Wert 1- Das 
bedeutet, ein Signal mit dem Wert 1 wird an die Ubergeordneten 
Ladeeinheit weitergeleitet f woraufhin die ubergeordneten 
Ladeeinheit das nachfolgende Module leidt. 



oodol© example 2 

input (varl, var2 : ty$; var3 r tya) - 

output; (resl : ty 4 ) ♦ 

begin 

regis bar <regnamel> (varl, var2) . 
* * * 

£ifo <fifonamel> (resl, 256) . 
terminates (f if of ull (<f if onamel>) ; 1). 
end. 

register wird in diesem Beispiel ttber input-Daten definiert . 

Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 

- 26 / 33±d 
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dafi das Register, das die output-Daten in examplel aufnimmt, 
die input-Daten fur example2 Eur Verfiigung stellt. 

fifo definiert einen FIFO-Speicher der Tiefe 256 £(ir die 
Ausgangsdaten resl. Das Full-Flag (fifofull) des FIFO- 
Speichers wird in .terminates als Abbruchkriterium verwendet. 

module ma in 

input (inl, in2 : tyi; in3 : ty*) - 
output (outl : ty 4 ) - 
begin 

define <regnamel> : register (234 ) . 
define <regname2> : register (26) - 

<fifonamel> : fifo(256,4). // FIFO Tiefe 256 

(varl2, var72) » call examplel (inl, in2, in3) . 




(outl) = call example2 tvar!2 # vaf72 r var243) . 

aigiial (outl) - 
terminates (example 2 ) . 
end. 




definiert eine Schnittstelle far Oaten (Register, 
Speicher, etc) - Bei der Definition werden die erf orderlichen 
Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur einmal zur Verfttgung stehen, 
mussen sie eindeutig angegeben werden* Damit ist die 
Definition global, d.h. die Bezeichnung gilt fUr das gesamte 
Prograrom. 

call ruft ein^Modul als Unterprograroin auf* 

- 27 / 33M- - 
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3±gnal definiert ein Signal als Ausgangssignal, ohne dafl eine 
Zwischenspeicherung verwendet wird. 

Durch terminated (example2) wird das Modal main terminiert, 
sobald das Unterprogramm example2 terroiniert- 

Durch die globale Declaration "define ..." ist es prinzipiell 
nicht mehr notwendig, die so definierten input/output Signal© 
in die Schnittstellen-Deklaration der Module aufzunehmen. 

Die Zttstandflinformatlonfen dgg Frozegaormodella 

Zur Bestimmung der Zustande innerhalb eines Graphen werden die 
Statusregister der einzelnen Zellen (PAEs) uber ein zusatzlich 
zum Datenbus (0801) existierendes, frei rout- und 
segment ierbares Status-Bussystem (0802) alien anderen 
Rechenwerken zur Verfdgung g^stellt (Fig. 8b) . Das bedeutet, 
daft eine Zelle (PAE X) die Statusinformation einer andern 
Zelle (PAE Y) evaluieren kann und dementsprechend die Daten 
verarbeitet. Urn den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeutlichen, ist in Fig. 8a der 
Stand der Technik angegeben. Dabei ist ein 

Multiprozessorsystem gezeigt, dessen Prozessoreh Uber einen 
gemeinsamen Datenbus (0803) miteinander verbunden sind. Ein 
explizites Bussystem far den synchronen Austausch von Daten 
und Status exist iert nicht. 

Abschliefcend soil angemerkt werden, daft je nach Aufgabe sowohl 
der Datenf lufigraph, als auch der Kontrollf lufigraph 
entsprechend dem beschriebenen Verfahren behandelt werden 
kann. 

\ ■- . . - 

r 
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Erweiteruagen in der Baxdirajre creqenuber E A CT03P 196 51 075.9 
und gftGgQ4Pl96 54 846.2 

Durch PA€g& £P196 51 075.9 und gA6¥Q 4P196 54 846.2 ist der 
Stand der Technik in Bezug auf die Konf igurationseigenschaf ten 
von Zellen (PAEs) definiert. 
i Dabe sol L»? a u£s*zwe i Erigenseh.a f ten wei«ng<e,gangen werden : 

1 . —Elner> PAg^( v Q903 ) ist^jcyemaflr PACT02E196 51 075'. 9 j ein Satz " 
von^A§i'9u^a#i^ ffgg04 ) zU'g^ordnet # Mer eine 
Konf igurat ion beinhaltet (Fig. 9Ga) . 

2. Eine Gruppe von PAEs (0902) kann gernafi PACT04 P196 54 846.2 
auf einen Speicher zum Speichern oder Lesen von Oaten 
zugreifen (Pig. 9£b) 

Aufgabe ist es, 

a) ein Verfahren zu schaffen, das das Umkonf igurieren von PAEs 
beschleunigt und zeitlich von der ubergeordneten Ladeeinheit 
entkoppelt, und 

b) das Verfahren so auszulegen, dafi gledehzeitig die 
MSgliehkeit geschaff en wird uber men cere^Konf dguxa t ionen 2U 
seguenzep , wund 

c) qleichzeitriq mehrere Konf qurati'onen, in einer ^gAEf zuy fralten, 
von denen iromer eine akt iviert 1st und, zwischerf"ye«rschiedenen 
Kon f i gugsag i o n.en s chne 1 1 qewe chseA.t we>rden *ka>nn , — 

Entkopplung der Konfigorationsregister 

Das Konf igurationsregister wird von der Ubergeordneten 
Lade^n|i^yc> <CT) en^koppelt (Eig^lQ-9) , a indem ein Satz von 
mehreren Konf igurat ionsregistern (109-901) verwendet wird. 
Immer genau eines der Konf igurationsregister bestimmt selektiv 
die Punktion der PAE. Die Auswahl des aktiven Registers wird 
uber^ einen- Multiplexer Q-91002) -durchgef uhrt . In jedes der 
Konf igurationsregister kann die CT beliebig schre&ben, sofern 
dieses nicht^die^aktuelle Konfiguration der PAE >bes t immt , d * h » 
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aktiv ist . Das Schreiben auf das aktive Register ist 
prinzipiell moglich, da2u stehen die in PACT1Q beschriebenen 
Verfahren zur Verfttgung. 

Welches Konf igurationsregister von £91002 selektiert wird kann 
durch verschiedene Quellen bestimmt werden: 

1* Ein beliebiges Status-Signal oder eine Gruppe beliebiger 
Status-Signale, die liber ein Bussystem (0802) an 991002 
geftthrt werden (Fig. -910a) . Die Status-Signale werden dabei 
von beliebigen PAEs generiert oder durch externe Anschlusse 
des Bausteins zur Verfugung gestellt (vgl. Fig. 8). 

2. Das Status-Signal der PAE, die von £91001/031002 
konfiguriert wird, dient zur Selektion (Fig. -910b) . 

3. Ein von der Gbergeordneten CT generiertes Signal dient zur 
Selektion (Fig- 910c) - 

Dabei ist es MmSglichy wahlweise die eingehenden Signale 
(9910037 — 0004, 0005 ) mittels eines Registers fttr einen 
bestimmten Zeitraum zu speichern und alternativ und wahlweise 
abzurufen. 

Durch den Einsatz mehrere Register wird die CT zeitlich 
entkoppelt. Das bedeutet, die CT kann mehrere Konf igurationen 
"vorladen", ohne daB eine direkte zeitliche Abhangigkeit 
besteht. 

Lediglich^ wenn das selektierte /aktivierte Register in 991001 
noch nicht geladen ist r wird mit der Konf igurat ion der PAE so 
lange gewartet, bis die CT das Register geladen hat. Urn 
f estzustellen, ob ein Register eine gultige Information 
besitzt kann beispielsweise ein "Valid-Bit" (999 41004 ) pro 
Register eingefiihrt werden, das von der CT gesetzt wird. Ist 
0906 bei einem selektierten Register nicht gesetzt, wird Uber 
ein Signal die CT zum schnellstmoglichen Setzen des Registers 
aufgefordert. 
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Das in Fig. £10 beschriebene Verfahren ist einfach zu einein 
Sequenzer erweiterbar (Fig. 4rSll) - Dazu wird ein 
MikirokontrollQg Sequenzer mit Instruktionsdekoder (W1JL01) zur 
Ansteuerung der Selektionssignale des Multiplexers (££i002) 
verwendet . Der Sequenzer bestiiraftt dabei abhSngig von der 
aktuel 1~ '^m^toi&e^en^&n-££gMM-titfson &SjggtG2 )r und earner 
zus& t z tiehen^Sfca* us i « f ©rma t ± on (W1103/44>1104) die nSchste zu 
*sele kt i ea?ende ^Korifdgu r a t ion * Dabei kann die Statusinf ormation 

(a) der Status der Status-Signal der PAE, die von 
■9-91001/»»1002 konfiguriert wird sein (Fig. i^lla) 

(b) ein beliebiges (iber 0802 zugefuhrtes Statussignal sein 
(Fig- *»llb) 

(c) eine Kombination aus (a) und (b) sein. 

gum cinfaohon VorotandniG kann 0001 1001 kann auch als e-£** 
Speicher bctraohtct wordon ausqestaltet sein , wobei Ubcr 
anstatt 441002 ein Be-fehl von ■■-491101 adressiert wird. Die 
Adressierung ist. dabei abhangig vom Bef ehl selbst und von 
einem Statusregister. Insoweit entspricht der Aufbau einer 
"von Neumann" MasTchine, mit dem Unterscheid, 

(a) der universe! len Eirisetibarkeit, also den Sequenzer ..nicht 
zu verwenden (vgl. Fig- *»10) 

(b) dafi das Statussignal nicht *von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden muB, sondern 
von einem beleibigen anderen Rechenwerk stammen kann (vgl. 
Fig. i^llb) . 

Wichtig ist, dafl der Sequenzer dabei SprUnge, insbesondere 
auch bedingte Spriinge. innerhalb von -SSlOOl ausfuhren kann. 

Ein we i teres zusfttzliches Oder alternatives Verfahren (Fig. 
12tt) : zum- Aufbau von Sequenzern innerhalb der gchonntcn 
BtHlot cine von VPUs ist die Verwendung der internen 

- 31 / 33-t* 



Datum 09.01.00 13:48 FAXG3 Nr: 214750 von NVS:FAXG3.I0.0201/00721 469308 (Seite 5 von 15) 

i i 




Datenspeicher (^bl201 f 0901 ) zum Speichern der 
Konfigurationsinformation fttr eine PAE oder eine Gr uppe von 
PAEs. Dabei vrird der Datenausgang eines Speichers auf einen 
Konfigurationseingang einer PAE Oder mehrer PAEs geschaltec 
(«rl2° 2 > • Die Adresse (12«r03) far 12**Q1 kann dabei yon 
derselben PAE /denselben PAEs oder einer oder roehreren 
beliebigen anderen. generiert werden. 
Bex diesem Verfahren ist der Sequen2er nicht fest 
implement iert, sondern wird durch eine PAE oder eine Gruppe 
von PAEs nachgebildet . 




/ 
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Paten tanaprtiche 

Verfahren zum Ausftthren von Programmen auf einem Baustein mit 
ein- oder mehrdiraensionaler Zellstruktur, dadurch 
gekennzeichet, 

dafi Datenf lufl- oder Kontrollf lufigraphen in zeitlich getrennte 
Teilgraphen^partitioniert warden und -sequent iell auf den 
Baustein abgebildet und ausgef tihrt warden. 



JdWY 133. wi. ww Aw^wO 
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BEST AVAILABLE IMAGES 

Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

□ BLACK BORDERS 

□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

□ LINES OR MARKS ON ORIGINAL DOCUMENT 

UI)rEFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

4 OTHER: (MiJi SlaMX- 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 
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